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应 用 BioMod 集成 多 种 模型 研究 物种 的 空间 分 布 
一 一 以 铁 杉 在 中 国 的 潜在 分 布 为 例 ” 
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摘要 : 新 型 统计 方法 和 多 源 、 多 尺度 空间 信息 数据 的 产生 促进 了 物种 空间 分 布 模型 的 快速 发 展 。 不 同 的 物 
种 空间 分 布 模型 在 生态 学 理论 的 运用 以 及 前 提 假 设 上 存在 差异 。 选 用 不 同 的 模型 方法 和 输入 数据 会 带 来 预 
测 结果 的 不 确定 性 。 对 比 并 集成 多 个 物种 空间 分 布 模型 ， 同 时 利用 多 组 输入 数据 可 降低 预测 的 不 确定 性 ， 
提高 物种 分 布 模拟 的 精度 。 本 文 以 中 国 特 有 种 铁 杉 (Tsuga chinensis) 为 例 ， 运 用 基于 R 语言 开发 的 Bio- 
Mod 软件 包 对 比 9 个 物种 空间 分 布 模型 对 铁 杉 的 模拟 效果 。 最 后 以 曲线 下 面积 (ROC) 为 权重 集成 9 个 模 
型 的 模拟 结果 ， 产 生 和 筛选 最 佳 的 铁 杉 潜在 空间 分 布 图 。 研 究 发 现 随机 森林 模型 (RF) 的 模拟 效果 最 好 ， 
其 次 是 多 元 适应 回归 样 条 函数 模型 (MARS) 和 广义 相 加 模型 (GAM) ， 模 拟 效果 最 差 的 是 表面 分 布 区 分 
室 模型 (SRE ) 。 模 型 集成 结果 显示 ， 最 适宜 铁 杉 分 布 的 区 域 集中 在 中 国 的 西南 及 四 川 盆地 周 于 ， 其 次 零星 
分 散 于 华南 和 台湾 部 分 地 区 。 这 一 结果 与 前 人 对 铁 杉 自然 分 布 的 描述 和 研究 结果 较为 吻合 。 研 究 进一步 表 
明 ， 通 过 模型 的 集成 能 有 效 地 降低 由 于 单个 模型 所 带 来 的 模拟 结果 不 确定 性 ， 从 而 提高 模拟 的 精度 和 效 曙 
关键 词 : 物种 空间 分 布 模型 ; 铁 杉 ; 模型 集成 ; 分 布 区 ; BioMod 
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Applying BioMod for Model-Ensemble in Species Distributions : 
a Case Study for Tsuga chinensis in China 
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Abstract; The integration of new statistical techniques and increasing availability of multi-sources and multi-scale 
data sets promote the development of species distribution modeling. Yet, choice of data sets, different model types 
and their underlying ecological theories and assumptions can cause uncertainty in model predictions. In order to de- 
crease prediction uncertainty, studies using model ensemble are gaining in popularity. In this paper we apply the Bi- 


oMod package developed under R environment to predict the spatial distribution of Tsuga chinensis using nine differ- 
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ent models. Our aims were to evaluate model performance, select explanatory variables, and assemble the best pre- 


dictive output. Random Forest, MARS and GAM performed the best amongst the nine models compared, while SRE 


was the worst. The ensemble models predicted that the areas of high probability for T. chinensis presence lie mainly in 


Southwest China and the periphery of the Sichuan basin, and are also distributed sporadically in South China and Tai- 


wan. These predictions reflect the actual distribution pattern of T. chinensis, and show high agreement with other ana- 


lyses. The application of BioMod for model ensemble lowers uncertainty and improves the prediction performance. 


Key words; Species distribution model; Tsuga chinensis; Model assembly; Biogeography; BioMod 


物种 空间 分 布 模型 是 利用 物种 已 知 分 布点 、 
环境 信息 及 二 者 之 间 的 相互 关系 来 模拟 和 预测 物 
种 在 地 理 空间 中 的 分 布 状况 (Austin, 2002; Guisan 
和 Zimmermann, 2000; Pulliam, 2000), ， 是 利用 
物种 分 布 样本 点 来 推测 物种 分 布 区 的 一 种 有 效 途 
径 和 方法 (Marmion 等 ，2009)。 物 种 的 空间 分 
布 信息 不 但 有 助 于 我 们 了 解 物 种 的 历史 演化 过 
程 ， 还 可 用 于 研究 物种 对 环境 的 生态 适应 性 及 变 
化 〈Elith 4, 2006; McPherson 和 Jetz，2007 ) , 
为 土地 利用 规划 、 资 源 管 理 、 物 种 保护 和 引种 驯 
化 提供 重要 的 科学 依据 。 

20 世纪 90 年 代 初 ， 物 种 空间 分 布 模型 的 研 
究 须 从 地 形 图 或 其 他 纸 质 环境 图 层 的 数字 化 入 
手 。 记 载 物种 分 布 的 标本 信息 也 须 通 过 手工 查 
阅 、 整 理 和 输入 。 这 些 工 作 不 仅 费 时 耗 力 ， 而 且 
可 用 于 建 模 的 环境 信息 仅 为 地 形 地 貌 及 其 衍生 的 
基本 指标 。 随 着 数字 化 信息 的 爆炸 式 增长 、 计 算 
科学 的 发 展 以 及 统计 方法 的 创新 ， 物 种 空间 分 布 
模型 研究 得 以 飞速 发 展 。 

首先 ， 大 量 多 源 多 尺度 地 理 信息 和 数字 化 资 
源 可 以 免费 获取 和 利用 (Brotons 等 , 2004; Elith 
等 , 2006) ， 如 世界 和 区 域 范围 的 数字 化 地 形 数 
据 、 具 有 时 间 序 列 的 遥感 植被 指数 、Worldclim 
的 气候 数据 以 及 数字 化 的 标本 数据 ; 其 次 ， 高 性 
能 计算 机 的 普及 使 复杂 和 海量 数据 运算 成 为 可 
能 ; 再 次 ， 各 种 新 型 和 高 级 统计 方法 的 开发 和 应 
用 及 其 与 最 新 生态 学 理论 的 有 效 整合 (Austin, 
2007) ， 促 进 了 模型 方法 的 多 样 化 。 上 述 发 展 使 
我 们 突破 过 去 利用 单一 方法 或 基于 有 限 的 环境 因 
子 进行 物种 空间 分 布 预测 的 局 限 ， 促 进 多 种 方法 
的 运用 和 对 比 以 提高 模拟 效果 ， 并 为 检验 不 同 的 
假设 、 回 答 不 同 的 科学 问题 创造 条 件 。 当 前 关于 
物种 空间 分 布 模型 的 研究 热点 主要 集中 于 : 研发 
新 的 模型 (Phillips 等 ,2006; Prasad 等 ,2006 ) ; 
比较 多 种 模型 的 模拟 效果 (Brotons 等 ，2004; 























Elith 等 ,2006; Leathwick 等 , 2006); 模型 集成 
以 提高 模拟 效果 (Araújo 和 New, 2007); 研究 
不 同 分 类 群 在 演化 过 程 中 的 环境 和 地 理 空间 分 化 
过 程 (Heibl 和 Renner, 2012; Smith 和 Donoghue， 
2010); 研究 生物 多 样 性 空间 分 布 格局 ( Canhos 
等 , 2004) ; 模拟 未 来 气候 变化 情景 下 物种 的 分 布 
区 变化 (Bellard 等 ，2012; Maiorano 等 ，2012 ; 
Thuiller, 2004); 比较 入 侵 物种 在 原生 地 和 入 侵 地 
间 的 生态 位 差异 (Gallien 等 , 2010; Petitpierre 等 ， 
2012; Václavík 和 Meentemeyer, 2012) 。 

尽管 物种 空间 分 布 模拟 的 方法 和 技术 取得 快 
速 发 展 ， 但 如 何 从 众多 的 模型 中 选择 最 佳 者 仍 是 
个 难题 (Austin, 2007; Austin 和 Van Niel, 2011) 。 
同时 ， 不 同 的 模型 在 构建 过 程 中 所 基于 的 生态 学 
理论 和 前 提 假 设 不 尽 相 同 ( Guisan 和 Thuiller, 
2005) ， 模 拟 过 程 和 算法 有 所 差异 ， 造 成 模拟 结 
果 的 不 确定 性 (Barry 和 Elith, 2006; Buisson 等 ， 
2010; Naimi 等 , 2011; Thuiller, 2004; van Horss- 
en 等 , 2002; Wiens 等 , 2009) 。 另 外 ， 模 型 的 初 
台 设置 和 参数 设置 也 会 带 来 一 定 的 预测 差异 。 模 
型 评估 中 ， 或 因 评 估 数 据 的 独立 性 和 代表 性 程度 
不 同 ， 产 生 评 判 结果 的 不 确定 性 。 因 此 目前 有 很 
多 研究 正 围绕 降低 模型 的 不 确定 性 而 开展 ，Bio- 
Mod 就 是 为 解决 这 个 问题 而 开发 的 研究 平台 。 
BioMod 由 法 国 格 勒 诺 布 尔 第 一 大 学 高 山 生 态 实 
验 室 、 瑞 士 洛桑 大 学 生物 医学 学 院 、 西 班 牙 马 德 
里 国家 自然 博物 馆 生 物 多 样 性 与 进化 生物 
学 部 以 及 葡萄 牙 艾 武 拉 大 学 共同 研发 。 它 是 基 
于 R 开发 的 免费 和 公开 的 软件 包 ， 可 在 http:// 
r-forge. r-project. org/projects/BioMod/ 进 行人 免费 下 
载 。 其 优点 是 能 够 处 理由 不 同 模型 方法 和 非 独 立 
评估 样本 所 带 来 的 不 确定 性 。BioMod 采用 了 9 
种 可 选 的 物种 分 布 模型 ， 并 通过 集合 解决 模型 间 
异 的 问题 。 与 单一 模型 相 比 ，BioMod 可 运用 
不 同 种 类 的 模型 并 设置 不 同 的 初始 和 条件、 参数 和 
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限制 性 条 件 ， 进 行 大 量 的 运算 ,综合 分 析 所 有 运 
算 结果 的 共性 、 差 异 和 不 确定 性 。 其 结果 涵盖 各 
种 条 件 和 不 同情 况 下 预测 的 可 能 性 ， 具 综合 性 、 
总 结 性 和 可 靠 性 的 特点 (Thuiller 等 , 2009) 。 

本 文 以 中 国 特有 种 铁 杉 (Tsuga chinensis ) 
为 研究 对 象 ， 应 用 BioMod 对 比 和 集成 多 个 模型 
模拟 其 潜在 空间 分 布 ， 同 时 检验 不 同 的 气候 因子 
组 合 对 铁 杉 空间 分 布 模拟 效果 的 差异 。 





1 研究 材料 和 方法 
1.1 研究 物种 

铁 杉 为 常 绿 乔 木 ， 喜 酸 性 土壤 ， 多 生长 于 多 十 多 
雾 、 湿 度 较 大 、 气 候 凉 润 的 山地 环境 。 标 本 记载 产地 主 
要 包括 河南 、 陕 西 、 上 甘肃 、 湖 北 、 四 川 、 贵 州 等 地 。 常 
在 海拔 2000 ~3 000 m 之 间 与 云南 铁 杉 (7. dumosa), Æ 
吊 云 杉 (Picea brachytyla) 、 油 麦 吊 云 杉 (P. brachytyla 
var. complanata) 、 冷 杉 (Abies fabri) 等 组 成 针叶树 混交 
林 ， 少 数 成 纯 林 ( 郑 万 钧 和 傅 立 国 ,，1978 ) 。 
1.2 物种 分 布 数据 

从 标本 记录 上 提取 铁 杉 分 布 的 样本 点 ， 标 本 资料 来 
源 于 中 国 数字 植物 标本 馆 (http://www. evh. org. cn/ 
cms/) 。 共 获取 标本 记录 761 份 ， 实 体 标 本 分 别 馆 藏 于 
中 国 科学 院 植 物 研 究 所 (PE)， 江 苏 植物 研究 所 (NAS), 
中 国 科学 院 西 北 高 原生 物 研 究 所 (HNWP)， 西 北 农林 
科技 大 学 (WUK) ,广西 植物 研究 所 (IBK)， 庐 山 植 物 
bel (LBG) ， 中 国 科学 院 华 南 植物 研究 所 (IBSC) 和 中 
国 科学 院 成 都 生物 研究 所 (CDBI) 。 首 先 对 761 份 标本 
数据 进行 初步 筛选 ， 去 除 空间 信息 及 其 他 信息 不 明确 的 
记录 ， 以 及 同一 采集 地 多 份 标本 的 重复 记录 ， 最 终 保 留 
237 条 有 效 记 录 (图 1) 。 接 着 检查 每 条 包含 经 纬度 坐标 
信息 的 记录 ， 如 核对 无 误 则 直接 采用 ， 和 否则 予以 校正 。 
对 于 没有 经 纬度 的 标本 采集 记录 ， 通 过 其 记载 的 省 、 县 
和 小 地 名 信息 ， 在 Google Earth 上 查询 并 重建 其 坐标 信 
息 。 应 该 注意 的 是 重建 的 坐标 数据 不 完全 准确 代表 真实 
的 标本 采集 坐标 信息 ， 是 其 近似 估计 值 。 尽 管 如 此 ， 根 
据 所 使 用 栅 格 数据 的 空间 分 辨 率 大 小 ， 在 一 定 范围 内 偏 
离 真 实 值 并 不 会 降低 模拟 效果 。 利 用 标本 信息 重建 的 空 
间 数 据 已 经 被 大 量 的 运用 到 物种 的 空间 分 布 模型 当中 ， 
并 被 证 明 有 效 可 行 (Loiselle 等 , 2008; Schmidt 等 ,2005 ) 。 
在 本 研究 的 实际 操作 中 ， 结 合 卫 星 影 像 ， 在 小 地 名 分 布 
范围 内 根据 标本 记录 中 关于 生境 和 海拔 高 度 的 描述 ， 主 
观 选择 一 个 符合 上 述 标 准 的 空间 点 作为 近似 的 标本 采集 
点 。 由 于 所 采用 的 气候 栅 格 数据 空间 分 辩 率 为 0. 0083° , 
标本 采集 点 坐标 精确 到 小 数 点 后 4 位 数 即 可 。 本 研究 只 
有 物种 的 实际 分 布点 记录 ,没有 物种 的 非 分 布点 记录 ， 

































































































































































故 运 用 BioMod 的 功能 生成 拟 非 分 布点 (Pseudo ab- 
sence) ， 具 体 详 见 本 文 1.5 节 。 
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图 1 用 于 建 模 的 铁 杉 标本 点 分 布 示意 图 


Fig.2 Location map of herbarium collection used 


a 








for species distribution models 


1.3 气候 变量 

气候 是 决定 物种 分 布 的 主要 环境 因素 ， 且 该 数据 易 
于 获得 。 本 文采 用 Worldclim 全 球 气 候 数 据 库 中 空间 分 
HERA (0.0083°x0.0083°) 的 19 个 (Biol-19) 气候 变 
量 来 研究 铁 杉 的 气候 适宜 分 布 区 。 包 括 年 均 温 (Biol ) 、 
平均 月 较 差 (Bio2 ) 、 等 温 性 ( Biod) 、 气 温 的 季节 人 性 
(Bio4) 、 最 暖 月 最 高 温 (Bio5 ) 、 最 冷 月 最 低温 (Bio6 ) 、 
气温 年 较 差 (Bio7 ) 、 最 湿 季 平均 温 (Bio8)、 最 干 季 平 
均 温 (Bio9) 、 最 暧 季 平 均 温 (Bio10)、 最 冷 季 平均 温 
(Biol1) 、 年 降水 量 ( Biol2) 、 年 最 湿 月 降水 量 ( Bio13)、 
年 最 干 月 降水 量 (Biol4) 、 降 水 的 季节 性 ( Biol5)、 最 
湿 季 降水 量 ( Bio16) 、 最 干 季 降 水 量 ( Bio17)、 最 暧 季 
降水 量 (Biol8 ) 、 最 冷 季 降水 量 (Biol9 ) 。 该 数据 为 
1950 ~ 2000 年 的 平均 值 ， 坐 标 投影 系统 为 UTM-WGS84， 
详情 可 参考 http://www. worldclim. org/current。 由 于 未 考 
虑 其 他 可 能 的 相关 因子 ， 如 海拔 、 坡 向 、 坡 度 、 太 阳 辐 
射 、 植 被 指数 等 ， 本 研究 所 预测 的 铁 杉 分 布 范 围 为 其 潜 
在 分 布 区 ， 而 不 代表 其 实际 分 布 区 。 

除了 模型 的 选择 外 ， 如 何 甄别 好 的 解释 性 变量 也 是 
进行 物种 空间 分 布 模拟 研究 的 一 个 难点 (Austin 和 Van 
Niel, 2011) 。 如 果 将 所 有 能 获取 的 环境 因子 作为 模型 输 
人 将 使 运算 宛 长 且 会 降低 模拟 准确 度 (Williams 等 ， 
2012 ) 。 为 达到 最 佳 运算 效果 ， 在 多 数 情况 下 ， 研 究 者 
会 通过 自己 的 经 验 来 筛选 输入 模型 的 环境 因子 ( Frank- 
lin, 1998) 。 这 种 方法 虽然 简单 而 易于 操作 ， 但 主观 性 较 
强 。 在 事先 不 知道 由 哪些 环境 因子 主导 物种 的 空间 分 布 
格局 的 情况 下 ， 研 究 者 可 通过 统计 手段 来 寻求 解决 方案 
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(Williams 等 , 2012) ， 使 不 同 模型 表现 最 优 的 环境 因子 
组 合 也 可 能 存在 模型 种 类 的 差异 。 为 降低 由 环境 因子 组 
合 带 来 的 不 确定 性 ， 本 研究 采用 重复 随机 抽取 环境 因子 
的 方法 ， 即 在 N 个 气候 因子 中 随机 选择 n 个 作为 解释 性 
变量 ,重复 m 次 ， 即 随机 生成 m 个 组 气候 因子 组 合 。 针 
对 每 个 气候 因子 组 合 ， 用 9 种 空间 分 布 模型 分 别 进行 模 
拟 ， 以 寻找 对 不 同 模型 具有 普 适 意义 的 环境 因子 组 合 。 
本 文 对 19 个 气候 因子 ， 每 次 随机 抽取 5 个 ,重复 30 次 ， 
并 按 顺序 给 每 个 环境 因子 组 合 编号 。 

1.4 BioMod 所 采用 的 9 种 空间 分 布 模型 介绍 

1.4.1 广义 线性 模型 (GLM) GLM 是 线性 模型 的 扩 
展 ， 是 针对 应 变量 为 非 正 态 分 布 和 非 线 性 的 统计 学 方 
法 ,算法 包括 简单 线性 项 、 二 次 项 和 多 项 式 项 。 当 应 变 
量 为 二 元 变量 时 ， 需 要 通过 Logit 转换 (McCullagh 和 
Nelder, 1989) 。 

1.4.2 广义 相 加 模型 (GAM) GAM 为 GLM 的 半 参 数 
性 扩展 (Hastie 和 Tibshirani，1990) ， 通 常 适 用 于 数据 格 
式 复杂 、 难 以 用 标准 线性 或 非 线 性 模型 拟 合 的 情况 。 响 
应 曲线 的 形状 由 数据 本 身 决定 ， 而 非 事 先 指定 的 参数 模 
型 。 一般 通过 统计 平滑 方法 (smoother) 来 实现 。 其 工 
作 原 理 是 将 应 变量 对 某 个 自 变 量 作 图 ， 在 简约 的 前 提 下 
尽 可 能 拟 合 趋 近 训练 数 集 的 平滑 曲线 。 该 算法 对 每 个 变 
量 绘制 一 条 平滑 曲线 ， 并 将 结果 相 加 。 

1.4.3 多 元 适应 回归 样 条 函数 (MARS) MARS 是 一 种 
非 参数 的 回归 技术 ， 其 假设 模型 的 解释 变量 在 不 同等 级 
有 不 同 的 最 优化 参数 (Friedman, 1991) 。 因 此 根据 解释 
变量 的 等 级 ， 可 分 段 进 行 回 归 模 拟 并 确认 各 分 段 的 参 
数 。 参 数 的 临界 点 或 国 值 取 决 于 样 条 函数 结 点 ， 样 条 函 
数 结 点 通过 运算 自动 确定 。 

1.4.4 柔性 判别 分 析 (FDA) FDA 分 析 为 广义 的 线性 














































































































优 分 类 树 的 产生 是 平衡 偏差 最 小 及 叶 数 量 最 少 的 结果 。 
1.4.7 随机 森林 (RF) RF 是 一 种 新 的 通过 机 器 学 习 
和 集成 的 分 类 方法 ， 是 包含 很 多 决策 树 的 分 类 器 。Bio- 
Mod 采用 Breiman 和 Culter 用 于 分 类 和 回归 的 随机 森林 
代码 (Fortran) (Breiman，2001 ) 。 该 方法 运用 Bagging 
和 随机 选择 的 概念 ， 通 过 大 量 分 类 树 运算 得 到 最 终结 
果 。Bagging 即 是 Bootstrap Aggregations ， 是 对 样本 进行 多 
KER Bootstrap 取样 的 方法 。 若 原始 数据 集 包 括 M 个 变 
EMN 条 观察 记录 ， 每 次 随机 抽取 含 m 个 变量 的 n 个 随 
机 样本 (同时 进行 样本 回 置 replacement) 作为 每 棵 分 类 
树 的 训练 数 集 。 变 量 分 组 的 最 佳 国 值 将 作为 划分 每 棵 分 
类 树 节 点 的 闪 值 ， 且 根据 每 次 取样 的 训练 数 集 构建 一 棵 
带 评分 的 分 类 树 。 综 合 评估 所 有 通过 Bootstrap 取样 构建 
的 分 类 树 ， 取 评分 最 高 的 分 类 树 及 其 标准 为 最 终结 果 。 
在 参数 调试 中 ， 注 意 RF 对 m 敏感 ， 在 BioMod 中 通常 将 
m 设置 为 1/2M。 

1.4.8 推进 式 回归 树 (GBM/BRT) 如 果 说 GLM 是 在 
物种 分 布 和 环境 因子 之 间 寻 找 一 个 最 简约 的 拟 合 模型 ， 
Boosting 则 是 用 多 个 简单 模型 进行 拟 合 ， 最 终 综合 各 个 
结果 形成 最 为 优化 的 响应 预测 。 在 BioMod 中 采用 推进 
式 回 归 树 算法 (Boosted Regression Tree) ( Friedman, 
2001; Ridgeway，1999) ， 是 一 种 在 回归 树 上 运用 Boosting 
的 方法 。 具 体 运 算 过 程 是 构建 一 系列 简单 而 有 序 的 回归 
树 以 代表 物种 分 布 和 环境 变量 之 间 的 最 优 关系 ， 每 一 棵 
树 的 构建 取决 于 其 前 一 颗 树 的 残 差 。 最 终结 果 为 所 有 预 
测 的 加 权 平 均值 。 

1.4.9 表面 分 布 区 分 室 模 型 (SRE) SRE 以 物种 存在 
点 环境 信息 的 最 大 和 最 小 值 来 确定 物种 “信封 ” 状 的 生 
态 位 。 此 方法 简单 、 直 观 ， 无 需 考虑 解释 性 变量 间 的 相 
互 作用 ， 且 所 有 解释 性 变量 的 权重 一 致 ， 结 果 为 二 元 ， 






















































































































































































判别 分 析 ， 不 同 的 是 它 采 用 非 参数 算法 替代 线性 参数 算 
法 (Hastie 等 , 1994) 。FDA 假设 每 个 环境 变量 的 不 同 级 
别 呈 高 斯 分 布 。 与 线性 判别 分 析 相 比 ， 它 能 针对 不 同 标 
准 的 类 别 ( 如 混合 高 斯 ) 进行 分 类 。 环 境 参 数 构 成 初级 
类 别 ， 进 而 分 成 亚 类 别 ， 分 类 结果 由 亚 类 别 产 生 。 亚 类 
别 数量 取决 于 训练 样本 的 变异 程度 。 

1.4.5 人 工 神 经 元 网 络 (ANN) ANN 为 模仿 生物 神经 
网 络 结构 和 功能 的 数学 模型 或 计算 模型 (Ripley，1996 ) 。 
神经 网 络 通过 大 量 的 人 工 神 经 元 联结 进行 计算 。 现 代 神 
经 网 络 是 一 种 非 线 性 统计 建 模 工具 ， 常 用 于 关系 复杂 的 
输入 和 输出 变量 间 的 建 模 ， 或 用 来 探索 数据 的 模式 。 
1.4.6 分 类 树 分 析 (CTA) CTA 通过 对 应 变量 的 分 析 ， 
将 由 环境 变量 所 确定 的 空间 递归 划分 为 尽量 同 质 的 类 别 
(Breiman 等 , 1999) 。 建 树 的 过 程 中 ， 采 用 一 个 简单 规则 ， 
基于 环境 变量 ， 不 断 将 数据 分 组 。 每 次 分 为 两 组 ， 每 一 组 
内 尽量 同 质 。 每 个 分 组 节点 的 蜡 质 性 通过 偏差 来 表示 。 最 

















































































































但 不 可 进行 外 差 推 值 ( Busby, 1991)。 
1.5 BioMod 的 运行 、 模 型 评估 和 集成 

在 理想 的 状况 下 ， 进 行 物种 空间 分 布 建 模 和 评估 都 
需要 物种 已 知 分 布点 和 已 知 非 分 布点 。 仪 少 部 分 空间 分 
布 模型 如 Bioclim, DOMAIN, Habitat, ENFA, PCA spe- 
cies 可 在 已 知 非 分 布点 缺失 的 情况 下 使 用 。 然 而 在 通常 
情况 下 ， 人 们 缺乏 对 已 知 非 分 布点 信息 的 记录 和 掌握 
(Brotons 等 , 2004) ， 因 此 研究 者 针对 这 个 情况 开发 出 了 
一 些 能 够 在 已 知 分 布点 的 基础 上 生成 拟 非 分 布点 的 方法 
(Barbet-Massin 等 ，2012; Phillips 等 ,2009 ) 。 在 BioMod 
中 可 设置 需要 产生 的 拟 非 分 布点 套数 、 每 套数 据 的 样本 
量 、 生 成 方法 (包括 circles, squares, per, random 和 
sre) 以 及 与 已 知 分 布点 之 间 的 最 短 距离 等 (详情 参考 
Thuiller “, 2009 和 Barbet-Massin 等 , 2012 ) 。 本 研究 采 
用 Circles 的 方法 随机 产生 2 套 (PAL 和 PA2) 500 个 拟 
非 分 布点 ，Circle 的 最 短 距离 设置 为 0.5°。 
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毕 迎 凤 等 应 用 BioMod 集成 多 种 模型 研究 物种 的 空 


间 分 布 一 一 以 铁 杉 在 中 国 的 潜在 分 布 为 例 651 











准确 率 的 评估 应 采用 在 统计 学 上 具有 独立 性 的 样 
本 。 但 为 节约 操作 成 本 ， 可 将 样本 一 分 为 二 进行 拆 分 ， 
一 部 分 作为 训练 数 集 用 于 建 模 ， 男 一 部 分 用 于 模型 评 
估 。 在 BioMod 中 ,不 仅 可 设置 样本 拆 分 的 比例 ， 还 可 
进行 反复 多 次 独立 的 样本 拆 分 ， 最 终 的 评估 结果 为 多 次 
拆 分 评估 的 平均 值 。 这 样 就 有 效 地 避免 了 仅 由 一 次 随机 
样本 拆 分 就 得 出 评估 结论 的 不 确定 性 。 本 研究 中 ， 将 
80% 的 样本 用 于 模型 的 训练 ， 其 余 20% 用 于 预测 结果 的 
精度 评估 。 我 们 采用 三 种 当前 最 为 广泛 使 用 的 模型 评估 
指标 ， 分 别 是 Kappa, TSS 和 AUC (Allouche 等 ,2006; 
Fielding 和 Bell, 1997), Kappa 用 于 评估 样本 数据 与 模拟 
结果 之 间 的 一 致 性 。AUC (area under the curve) 用 来 评 
估 模 型 对 分 布 和 非 分 布 进行 区 分 的 能 力 。TSS (true skill 
statistics) 为 基于 Kappa 改良 的 方法 ， 既 保留 了 Kappa 的 
优点 ， 也 校正 了 Kappa 受 物 种 分 布 广泛 程度 影响 的 缺点 
(Allouche 等 , 2006 ) 。 

本 研究 中 将 随机 生成 的 2 套 拟 非 分 布点 (PAl 和 
PA2) 和 已 知 分 布点 进行 2 次 随机 样本 分 割 产 生 训 练 数 
集 和 评估 数 集 ， 并 针对 每 个 随机 选择 的 气候 因子 组 合 ， 
进行 9 种 物种 空间 分 布 模型 的 模拟 运算 。 针 对 一 组 气候 
因子 和 一 组 拟 非 分 布点 产生 18 个 模拟 结果 (9 个 模型 x2 
次 随机 样本 分 割 )， 并 对 18 个 模拟 结果 进行 集成 。 方 法 
是 以 ROC 为 权重 ， 用 18 个 模拟 结果 综合 计算 每 个 栅 格 
所 代表 的 空间 位 置 上 铁 杉 的 分 布 概率 。 每 组 气候 因子 通 
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过 2 套 拟 非 分 布点 共产 生 36 个 模拟 运算 结果 和 2 个 集成 

结果 。30 个 环境 因子 组 合共 计 产 生 1 080 个 模拟 结果 和 
60 个 集成 结果 (图 1) 。 选 择 表现 最 好 的 5 个 环境 因子 
组 合 的 模型 集成 作为 最 终 产 出 。 








2 结果 
2.1 不 同 模型 预测 结果 的 精度 比较 
对 比 BioMod 中 的 9 个 模型 ，3 种 模型 评估 
方法 表现 结果 基本 一 致 (图 2)。 相 比 之 下 ，RF 
的 模拟 效果 最 好 ， 平 均 Kappa, TSS 和 AUC 分 别 
达到 0.76，0.78，0.95。 其 次 是 MARS U GAM, 
均 能 达到 Kappa>0.7，TSS>0.7，AUC>0.9。 表 
现 最 差 的 是 SRE，KAPP 为 0. 56，TSS 为 0. 60, 
AUC 为 0.80。 其 他 4 种 模型 的 表现 介 于 上 述 几 
种 模型 之 间 。 
2.2 不 同 气候 因子 组 合 对 模型 预测 精度 的 影响 
不 同 的 气候 因子 组 合 ， 模 拟 能 力 和 预测 效果 
存在 较 大 差异 (图 3)。 对 于 绝 大 部 分 的 气候 因 
子 组 合 ， 模 拟 能 力 较为 相似 ,平均 模拟 精度 为 
Kappa=0.65，TSS=0.7，AUC =0.8。 其 中 有 一 
a a elk 
例如 组 合 序号 1、2、11、21 和 22 ( 表 1) ， 能 达 
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Fig.2 Framework of the study 
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到 Kappa>0.77, TSS>0.70, AUC>0.91, 


也 有 部 分 因子 组 合 ， 


1 所 列 。 





同样 ， 
如 组 合 序 号 23 和 25， 表 现 较 
差 , 其 Kappa 和 TSS 仅 为 0.55 左右 ，AUC0. 83 Æ 


右 。 表 现 较 优 的 气候 因子 组 合 及 其 评估 指标 如 表 


2.3 ”模型 集合 结 
图 4 为 基于 表 1 中 5 个 最 佳 气候 因子 组 合 
BioMod 生成 的 两 组 拟 非 分 布点 PAIL 和 PAD. 


过 9 个 物种 空 运算 和 集成 产生 的 铁 
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图 4 30 个 随机 选择 
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Fig.4 Kappa, TSS and AUC comparisons across 30 combinations of variables using random selection 


R1 表现 最 优 的 $ 个 气候 因子 组 合 及 其 通过 9 个 模型 模拟 评估 的 Kappa, TSS 和 AUC 平均 值 


Table 1 


The five best performed variable-combinations and their average value of Kappa, 


TSS and AUC of model predictions across nine models 





























KS. he ner 环境 因子 组 合 Variable-combinations Kappa TSS AUC 
rdml Biol7 * Biol5 ™ Biol8 ™ Bioll ™ Bio7 0.87 0. 80 0.93 
rdm2 Biog Biol1 ™ Biol2 Biol6 * Biol * 0.78 0.78 0.92 
rdmll Biol4 Biol6 * Bio5 * Biol8 ™ Bioll ™ 0.77 0.70 0.91 
rdm21 Biol * Biol5 ™ Biol) Biol7 * Bioll ™ 0.79 0.81 0.93 
rdm22 Biol9 Biol5 ™ Biol8 ** Bio5 * Biol3 0.85 0.75 0.92 
备注 : “标注 的 是 在 5 个 最 优 气候 因子 组 合 中 出 现 3 次 的 气候 因子 ; “为 在 5 个 最 优 气候 因子 组 合 中 出 现 2 次 的 气候 因子 
Note; ”denotes climatic variables occurred three times in the five best performed variable-combinations; “denotes two times occurred variables 
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栅 格 内 的 分 布 概率 ， 数 值 越 大 表明 铁 杉 的 分 布 概 
率 越 高 。 从 图 中 可 看 出 ， 不 同 环境 因子 组 合 模拟 
得 到 的 铁 杉 分 布 区 存在 一 定 差异 ， 但 大 部 分 区 域 
基本 一 致 。 总 体 而 言 ， 最 适宜 铁 杉 分 布 的 区 域 集 
中 在 中 国 西南 及 四 川 盆地 周围 地 区 ， 零 星 分 布 于 
华南 和 台湾 部 分 地 区 。 
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图 5 集成 9 个 物种 空间 分 布 模型 所 生成 的 铁 杉 空间 分 布 图 。 
rml ，rm2，rmll ，rm21 和 rm22 分 别 是 5 个 最 佳 气候 因子 组 合 ， 
PAL, PA2 为 随机 生成 的 两 套 拟 非 分 布点 


Fig.5 Assembly maps of T. chinensis across nine models using 














the five best performed combinations of variables 
(rml, rm2, rmll, rm21, rm22) and two sets of randomly 
produced Pseudo-absences (PA1 and PA2) 


3 Wit 

据 文献 记载 ( 郑 万 钧 和 侍 立 国 , 1978) ， 铁 
杉 分 布 于 甘肃 白 龙 江 流 域 、 陕 西南 部 、 河 南西 
部 、 湖 北西 部 、 四 川 东 北部 及 岷江 流域 上 游 、 大 
小 金川 流域 、 大 渡河 流域 、 青 衣 江 流域 、 金 沙 江 
流域 下 游 和 贵州 西北 部 海拔 1 200 ~3 200 m 地 
带 ， 在 河南 、 陕 西 、 甘 肃 、 湖 北 、 四 川 东北 部 及 
贵州 等 地 多 呈 星 散 分 布 ， 在 四 川西 部 峨 边 、 沪 
定 、 天 全 等 地 尚 有 较 大 面积 的 森林 。 本 文 模拟 的 
铁 杉 空间 分 布 结果 不 仅 能 较 好 的 反应 文献 记载 的 
分 布 区 ， 也 和 应 俊生 (1989) 划分 的 铁 杉 属地 
理 分 布 范围 有 较 好 的 对 应 关系 。 

尽管 铁 杉 在 中 国 分 布 面 积 较 广 ， 且 广泛 栽 
培 但 其 对 环境 需求 的 生态 学 研究 还 较为 缺乏 
(Del Tredici 和 Kitajima, 2004) 。 通 过 本 研究 得 
选 出 来 的 环境 因子 ， 为 进一步 了 解 该 物种 的 生态 
位 特征 和 环境 适宜 条 件 提供 基础 信息 。 在 所 筛选 
出 来 的 5 个 最 佳 气候 因子 组 合 中 ， 出 现 频率 最 高 
的 气候 因子 为 最 冷 季 平均 温 (Bioll ) 、 降 水 的 季 
节 性 (BiolS) 和 最 暧 季 降 水 量 (Biol8), 分 别 
出 现 了 3 次 ， 而且 共同 出 现 的 机 率 较 大 ( 表 1)。 
其 次 是 年 均 温 (Biol ) 、 最 暖 月 最 高 温 (Bio5 ) 、 
最 湿 季 降水 量 ( Bio16) 和 最 干 季 降 水 量 (Biol7 ) , 
分 别 出 现 了 两 次 。 由 此 可 以 判断 ， 铁 杉 的 空间 分 
布 主 要 受 温 度 和 降水 的 综合 影响 ， 特 别 是 最 冷 季 
温度 和 最 暧 季 的 降水 量 。 有 研究 表明 ， 最 冷 季 
(或 者 说 冬季 ) 低温 与 物种 对 霜冻 的 响应 较为 密 
切 ， 是 决定 针叶树 分 布 的 主要 环境 因子 (Ban- 
nister 等 ,2001 ) 。 对 铁 杉 标本 分 布点 的 气候 特征 
研究 发 现 适 宜 铁 杉 分 布 的 最 冷 季 平 均 温 的 平均 值 
为 1.7% (SD=4.3)， 最 暧 季 降 水 量 的 平均 值 为 
482 mm (SD=126) 且 具 有 明显 的 降水 季节 性 。 

如 果 采 用 自选 的 环境 因子 组 合 ， 不 一 定 产生 
最 佳 的 模拟 效果 ， 究 其 原因 可 能 是 各 因子 间 存 在 
共 线 性 或 一 些 重 要 的 生态 学 本 质 未 被 发 现 。 通 过 
重复 随机 组 合 环境 因子 ， 使 我 们 有 机 会 掌握 在 随 
机 条 件 下 ， 模 型 本 身 能 达到 的 模拟 效果 。 分 析 发 
现 ， 即 使 在 没有 任何 生态 学 背景 知识 和 统计 筛选 
的 协助 下 ， 利 用 任意 随机 环境 因子 组 合 也 能 取得 
可 接受 的 模拟 效果 。 研 究 还 发 现 某 些 气 候 因子 组 
合 的 模拟 效果 确实 高 于 其 他 组 合 ， 预 示 着 这 些 环 
境 因子 对 物种 空间 分 布 的 重要 性 。 而 表现 较 差 的 
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环境 因子 组 合 正 好 说 明 其 与 物种 的 分 布 相 关 性 不 
大 。 因 此 ， 在 缺乏 生态 学 背景 知识 的 情况 下 ， 重 
复 多 次 随机 组 合 可 作为 一 种 第 选 有 效 环境 因子 的 
替代 办 法 ， 但 须 从 生态 学 和 生物 学 角度 对 其 结果 
的 合理 性 进行 判断 和 解释 。 

从 模型 的 表现 来 看 ， 由 简单 到 复杂 ， 模 拟 效 
果 越 来 越 好 。 以 SRE 为 代表 的 传统 气候 分 室 模 
型 在 一 定 程 度 上 能 够 模拟 铁 杉 的 空间 分 布 ， 而 以 
RF, GAM 和 MARS 为 代表 的 新 技术 的 运用 能 再 
来 更 好 的 模拟 效果 。 不 同 模型 模拟 效果 之 间 的 差 
异 ， 可 能 是 各 个 模型 对 识别 基础 生态 位 和 现实 生 
态 位 的 差别 所 致 。 气 候 分 室 模 型 的 模拟 结果 可 能 
更 接近 基础 生态 位 ， 是 在 无 其 他 因素 干扰 下 ， 物 
种 可 占据 的 环境 空间 及 其 在 地 理 空间 中 的 映射 。 
而 在 现实 的 自然 生态 系统 演化 过 程 ， 由 于 其 他 人 
为 干扰 (如 土地 利用 转变 ) 、 非 生物 环境 因素 和 
生物 因素 (如 竞争 、 排 斥 、 传 粉 、 种 子 散 播 和 
协同 进化 ) 的 共同 作用 导致 部 分 基础 生态 位 未 
被 目标 物种 所 占据 。RF，GAM 和 MARS 通过 其 
复杂 的 运算 技术 可 能 或 多 或 少 的 捕 提 到 了 由 上 述 
因素 干扰 的 结果 。 

对 于 既定 的 目标 物种 ,通过 对 比 能 筛选 出 表 
现 较 优 的 模型 。 但 通过 一 个 物种 筛选 出 来 的 最 优 
模型 ， 并 不 能 推 而 广 之 ， 运 用 于 其 他 物种 。 众 多 
研究 表明 ， 预 测 效果 受 很 多 因素 的 影响 ， 除 模型 
类 别 和 参数 设置 外 ， 还 有 与 物种 相关 的 特征 ， 如 
分 布 区 环境 特征 、 物 种 分 布 广度 、 分 布 的 聚 散 模 
式 以 及 稀有 性 等 (Marmion 等 ，2009 ) 。BioMod 
研究 平台 的 开发 ， 能 同时 对 比 多 个 基于 不 同 生态 
学 原理 的 空间 分 布 模型 ， 使 物种 空间 分 布 研究 朝 
着 更 加 高 效 和 准确 的 方向 发 展 。 
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